「书简」大数据的功能
本文选自《社会远观:人文社科的大数据视野》,商务印书馆,陈云松 著,2022
目 录
导言
第一章 人文社科大数据
第一节 大数据概述
第二节 人文社科视野
第三节 大数据来源
第二章 大数据的功能
第一节 透视当代社会:从性少数人群说起
第二节 重现宏大历史:中国瓷塔和全球城市
第三节 揭秘文化脉络:文化标志大排名
第四节 澄清社会事实:女性刻板印象和脏话
第五节 呈现复杂现象:人文社科的合作网
第六节 提供文本远读:李子柒、特朗普与东北喊麦
第三章 大数据的信息维度
第一节 时间趋势信息
第二节 空间差异信息
第三节 时空变化信息
第四节 网络互动信息
第四章 大数据中的社会结构和变迁
第一节 美国社会的阶级意识
第二节 中国社会结构话语
第三节 互联网的观念割席
第四节 焦虑、抑郁与环境
第五章 大数据中的文化脉络
第一节 百年三地电影里的中国
第二节 小说的传播效应
第三节 代内文化反授
第四节 文化景观的学问
第六章 大数据中的社会治理和发展
第一节 微博与中国股市
第二节 外商投资与国际知名度
第三节 “一带一路”倡议的沿线关注度
第七章 大数据和社会学的学科发展
第一节 大数据中的百年群学
第二节 传统定量研究的微观旨趣
第三节 宏观定量社会研究何以可能
附录
参考文献
陈云松,1975年生,南京大学社会学院教授。出版Understanding China through Big Data: Applications of Theory-oriented Quantitative Approaches、Causal Effects of Social Capital: Labor Markets and Beyond、《关系社会资本新论》等专著。
大数据的功能
“大数据”一词在 2010 年之后爆红网络,人人视之为新的知识风口。与该词密切相关的主题,从“云计算”“数据分析”“人工智能”等计算机科学领域的专业词汇到“海量数据”“市场营销”“精准投放”等商业新概念,不一而足。对于一个新生事物市场的嗅觉往往最为灵敏,其次当属学术界。但不同于以往的是“大数据”这一学术词汇不仅在与计算机科学相关的学科中被关注,就连一向偏于保守滞后的人文社科领域的研究者也向它投去了目光。
“大数据”一词 2004—2020 年谷歌趋势
五彩气泡一般的大数据,折射出诱人的光芒,但当我们伸手去够时,却好像什么都摸不着,对于人文社科学者而言尤其如此。读着顶级杂志《科学》上宣告计算社会科学时代到来的言论,人们很容易心驰神往,然而若是真正着手于大数据研究或大数据观察思考,脑海里却接连冒出问号:到哪里寻找问题?又如何给出一份合理的回答?对于初识大数据、没有接受过数据科学专门训练的人来说,这些都是棘手的拦路虎。那么,我们应该如何利用大数据?大数据究竟能为我们观察社会和分析社会带来什么呢?
史学需要史料,人文需要文本,社会科学需要数据和案例。首先,单就“大数据”本身而言,最直接的价值便是向它们提供来源多样的信息,以供分析和探索。对于社会学来说,有此数据在之前是不可想象的,传统社会调查方法对于日常信息鞭长莫及,社交网络上个体实时更新的生活动态却为它们开辟出了新的天地,对于文史学科来说,阐释新旨、发微显隐依赖于史料文献,许多珍本秘籍却难得一见。而近年来各类数字集库项目,能帮助学者们打破重重锁钥的限制,只需轻击鼠标,登录界面,就能遍览百世善藏。
其次,大数据技术为人文社科研究中的信息检索与分析提供了迅捷的通道。学海无涯,人生有穷,纵然是再勤奋的学者,面对浩如烟海的典籍,也会感到自身的渺小;社交媒体上的百万用户发布的文本信息数量如此庞大,如果单凭人力去阅读标记,难免效率和正确率低下。而大数据概念下的文本分析技术,却能够在几分钟里遍历文献,展示其脉络,归纳其主题。因此,大数据为人文社科研究提供了广阔的空间,如果运用得当,就能够产生巨大的作用,充当历史的显示器、社会的实验场。由此,在这一章,我们把大数据的社会价值归纳为五个方面。第一,大数据记录当代社会。历史是过去的社会,社会是未来的历史,一切社会的痕迹流传于后世,都将成为解读当代的史料,若是审之于当下,它们就能充当反映现实的记录。人们在审视自身所处的社会时,往往有“身在此山中”的迷思,而大数据提供的宏观视角,则有望为学者提供一处俯看当今时代的平台。引擎里的每一次网络搜索,平台上的每一则消息发布,微博中的每一条文本评论,都有望在大数据之手中聚个体而成群体,集微观而显宏观,融汇为记录与阐释当代的珍贵视窗。
第二,大数据重现宏大历史。历史的走向是复杂的,但并非无迹可循。然而单以个体史家之力,很难面面俱到,绘成一幅巨构长编。大数据及其配套平台和技术的出现,则为学者提供了一处能够交互的史料分析器。基于电子化的史料数据集成,再加以研究设计的巧思,学者们就能够看到特定议题的动态变迁一一边关的贸易、地理的探索、文明的兴衰、世界重心的迁移都能够呈现于一图一表之中。其考据之准确、视野之宏大,往往是传统研究方法不可比拟的。
第三,大数据澄清社会事实。社会中常常有一些未经验证但被广泛传播的刻板印象,比如有人指责网络话语会催生不文明的词汇,并对汉语造成污染;还有人认为相较于男性而言,女性更容易迷信。这些刻板印象问题却多为传统的人文社科学者所忽略,因为它们只是听上去有意思而已,要解答起来又实在很不好下手。而借助大数据的视角,我们可以用强有力的实证资料来对这些说法加以证实或证伪,由此获得的真知会更加发人深省。
第四,大数据呈现复杂现象。对于一些复杂的社会现象和历史情境,现有的人文社科方法有时难以给予恰当的表达或描述。比如数百年来,人们的语言系统是否变得更加世俗了,再如自然科学和人文社会科学领域,学者在合作研究网络上有何差异、有何演化趋势,这些问题涉及诸多维度。相比于传统方法,大数据同样未必能提供精准的终极答案,却可能提供一些从前难以获得的可视化方式。这些变量或者图表能够为复杂问题给出特定范围中的有效回警。
第五,大数据提供文本远读。古往今来,人类社会活动的各类档案积累可谓浩如烟海。信息爆炸时代,不管是学者还是普通读者,往往很难从巨量的资料中精准获取我们所需要的知识。更重要的是,因为资料体量巨大,我们往往只能如盲人摸象一般,无法窥见全貌。因此,很多时候我们观察社会、了解文化的困扰从一书难求变为了纷呈乱目。而借助大数据及机器学习文本分析技术,我们可以解放自己的眼睛,从大历史、大时空的角度来总览特定主题、特定文本、特定社会文化现象的草蛇灰线和来龙去脉。如果说过去解剖麻雀般的案例研究方法是用显微镜观察局部。那么利用大数据的鸟瞰式观察就是用天文望远镜总览全局。
大数据的横空出世,如同一道幕布正在徐徐拉开。无论是普罗大众还是人文社科领域的学者,其实都无法预言大数据与人文社科的碰撞最终能激发出何等的轰鸣。本章的内容虽然远不能展示大数据的全部潜力,但可以借着幕布后透出的光亮,来为读者做引导式的简介。当今的人们所做出的涓滴尝试,都将汇聚成未来的浩瀚江海。大数据研究开拓出的广阔空间,正欢迎读者们投身于其中,开始属于自己的创造。
往期推荐
书简
思勉原创奖历届获奖著作(附目录)
观点
刊界
学术集刊的“商务”方阵
方圆
二十大报告重要论述及金句中英对照
智汇
数迹
C刊公号热文——综合性社会科学(二季度)
撷英
中国人文社会科学综合评价研究院编辑部出品
● 声明
推文基于更好更多传递信息之目的,限于视野和能力,可能会有疏漏及不足之处,请随时指正。若有来源标注错误或侵犯了您的合法权益,请致信zhpj@nju.edu.cn,我们将及时更正、删除!
如需转载,请保持图文完整,并标注版权及本公众号ID、二维码、作者,谢谢!
长按二维码即可关注,第一时间获得我国人文社会科学学术动态与研究资讯。
觉得“好看”请点赞或在看